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摘要 : 

[目的 ] 拓 展 以 物种 为 中 心 的 生物 多 样 性 知识 抽取 框架 ， 探 索 实 现 语义 知识 抽取 方法 

[方法 ] 结 合 当 前 生物 多 样 性 抽取 的 主流 研究 ， 以 物种 为 中 心 ， 设 计 包 含 多 种 实体 及 实体 
间 关 系 的 知识 抽取 框架 ， 利 用 已 有 的 众多 专业 数据 库 ， 设 计 并 实现 相应 的 识别 方法 。 

[结果 ] 设 计 了 以 物种 为 核心 的 知识 抽取 框架 ， 探 索 实 现 了 多 种 实体 及 实体 间 关 系 的 
语义 知识 抽取 方法 ， 拓 展 了 生物 多 样 性 领域 抽取 内 容 和 思路 。 

[局 限 ] 本 研究 实体 识别 的 完整 性 和 准确 性 受 底 层 知识 库 影 响 较 大 ， 且 实体 间 关 系 的 
类 型 局 限于 共 现 、 上 下 位 类 、 语 法 关系 几 类 ， 还 需 进一步 研究 。 

[结论 ] 拓展 了 生物 多 样 性 领域 抽取 内 容 和 思路 ， 可 有 效 支持 后 续 的 语义 检索 、 科 学 
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Abstract: 
[Objective] It is aimed to expand the knowledge extraction framework in biodiversity, and 
implement the knowledge extraction method. 
[Methods] This paper designs a knowledge extraction framework with various entities and entity 
relationships for biodiversity; which combines with current main biodiversity extraction research 
and takes species as the center. Besides, it implements the knowledge extraction method based on 
amount of specialized databases. 
[Results] This paper designs a species-central knowledge extraction framework for biodiversity, 
implements the knowledge extraction method about semantic named entities identification and 
relationships identification among them, and expands the units and methods for knowledge 
extraction in biodiversity field. 
[limitations] The recall and precision of the knowledge are effected by the dictionaries and rules. 
Besides, the semantic relationships among named entities are limited in co-occurrence, 
hierarchical and simple syntactic relationships. All mentioned above should be improved in the 
future. 
[Conclusions] It expands the knowledge units and methods for knowledge extraction in 
biodiversity. It could support the follow-up semantic retrieval and computation. 
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1 引言 


随 着 全 球 气候 变 暖 、 各 种 自然 灾害 频 发 等 问题 ， 物 种 灭绝 速度 越 来 越 快 ， 针 
对 生物 多 样 性 保护 与 持续 利用 的 研究 日 益 成 为 生物 多 样 性 研究 的 焦点 , 大 量 与 之 
相关 的 研究 论文 急剧 增长 。 如 何 帮 助 科研 人 员 从 这 些 富 含 了 大 量 物种 名 称 〈 科 学 
命名 、 别 名 、 俗 名 、 变 种 名 等 ) 、 基 因 、 实 验 设备 等 实体 的 文档 中 快速 发 现 所 需 
信息 ， 是 生物 多 样 性 信息 学 面临 的 重要 问题 之 一 。 针 对 此 ， 越 来 越 多 的 研究 者 正 
努力 尝试 利用 现 有 众多 的 生物 多 样 性 专业 数据 库 , 如 物种 名 录 、 标本 库 、 图 片 库 、 
基因 库 等 ,从 生物 多 样 性 描述 文本 或 文献 中 提取 知识 对 象 ， 并 借助 语义 内 容 标 注 
技术 实现 知识 对 象 的 自动 深层 标 引 ,实现 数字 资源 之 间 的 语义 集成 和 关联 ， 从 而 
为 进一步 的 语义 检索 、 数 据 挖掘 、 科 学 计算 提供 支撑 。 

本 文 在 对 当前 生物 多 样 性 信息 抽取 领域 相关 研究 分 析 的 基础 上 , 结合 中 国 科 
学 院 文献 情报 中 心 “建设 生物 多 样 性 领域 本 体 构 建 与 语义 组 织 应 用 示范 平台 ”的 
实际 要 求 , 设计 了 生物 多 样 性 语义 知识 抽取 框架 , 探索 实现 了 相应 的 语义 知识 抽 
取 方 法 ， 开 发 了 相应 的 生物 多 样 性 示范 平台 。 


2 相关 研究 概述 


在 众多 研究 者 的 努力 下 , 目前 已 经 出 现 了 不 少 针对 生物 多 样 性 领域 的 信息 抽 
取 工 具 ， 这 些 工 具 或 者 采用 单一 的 自然 语言 处 理 、 词 典 、 机 器 学 习 、 规 则 模板 、 
浅 度 或 深度 句法 解析 、 概 率 分 类 等 方法 ， 或 者 融合 上 述 几 种 方法 进行 识别 ， 识 别 
的 内 容 多 数 集中 于 物种 的 各 类 名 称 〈 科 学 命名 、 别 名 、 俗 名 、 变 种 名 等 ) ， 部 分 
工具 涉及 对 物种 的 性 状 的 识别 。Anne E. Thessen 等 人 在 文献 1 中 凹 综述 了 当前 在 
生物 多 样 性 领域 使 用 自然 语言 处 理 和 机 器 学 习 算 法 实现 物种 名 称 识别 的 的 相关 
WA, Nona Naderi 等 人 在 文献 2 中 中 集中 介绍 了 GATE 框架 下 提供 的 生物 医学 
领域 的 各 种 工具 。 上 述 文献 对 常规 的 生物 多 样 性 信息 抽取 流程 ,主流 的 信息 抽取 
方法 (基于 词典 、 基 于 规则 、 浅 度 句 子 解析 、 深 上 度 句 法 解析 等 ) 进行 了 全 面 的 评 
xh, 并 对 各 个 阶段 的 主要 信息 抽取 工具 进行 了 全 面 的 综述 。 本 文 将 不 再 对 上 述 内 
容 进行 重复 介绍 , 而 是 结合 当前 一 些 重要 的 生物 多 样 性 信息 抽取 工具 , 重点 对 生 
物 多 样 性 领域 抽取 的 内 容 进行 探讨 ,希望 在 此 基础 上 对 笔者 进一步 提出 生物 多 样 
性 知识 抽取 框架 提供 参考 支撑 。 

在 目前 生物 多 样 性 抽取 研究 中 ， 主 要 抽取 内 容 可 以 归纳 为 以 下 几 个 方面 : 


2. 1 物种 名 称 识 别 及 规范 


由 于 语种 、 地 方 称谓 等 的 差异 , 科技 文献 中 出 现 的 同一 个 物种 名 称 是 多 种 多 
样 的 。 有 的 是 标准 规范 的 双 名 制 命 名 法 (或 三 名 制 命名 法 ) 形成 的 拉丁 文 名 ， 即 
属 名 加 种 名 (若是 亚 种 则 在 种 名 前 再 加 上 一 个 亚 种 名 )， 且 属 名 在 前 , 种 名 在 后 ， 
属 名 第 一 个 字 大 写 , 种 名 小 写 ， 属 种 名 称 均 为 全 称 ,后面 通常 还 会 跟随 着 物种 命 
名 人 的 姓氏 B; 有 的 采用 取 属 名 首 字母 、 种 名 全 称 的 缩写 方式 ， 有 的 会 采用 物种 
的 俗名 (可 能 是 英文 ,也 可 能 是 其 他 语种 ,同一 个 物种 在 不 同 的 国家 或 地 区 也 可 
能 会 有 不 同 的 俗名 ) 由。 这 些 问题 的 存在 大 大 增加 了 物种 名 称 识别 的 难度 。 因 此 
目前 有 不 少 研究 者 专门 针对 物种 名 称 的 识别 、 规 范 及 组 织 进 行 了 研究 , 这 也 是 当 
前 生物 多 样 性 抽取 相关 研究 的 主流 。 这 些 研究 中 产生 的 研究 成 果 中 比较 典型 的 包 
括 可 用 作物 种 名 称 识别 与 规范 词典 的 NCBItaxonomyG、BioNamesmg〈 一 个 将 动 
物 名 称 与 其 来 源 描述 、 分 类 及 进化 树 关 联 的 在 线 数据 库 ) 、 物 种 2000 全 球 生物 


物种 名 录 叫 ， 也 包括 各 种 比较 成 熟 物种 名 称 识别 工具 如 NetiNeti), Linnaeus, 


OrganismTagger%、TaxonGrablio 等 。 
2. 2 物种 性 状 识 别 


对 物种 分 类 学 研究 人 员 而 言 ， 物 种 的 各 类 性 状 描述 信息 ， 如 根 、 茎 、 叶 的 颜 
色 、 长 度 等 ， 是 界定 物种 门类 的 重要 参考 信息 。 因 此 ， 有 一 部 分 生物 信息 学 研究 
人 员 着 力 于 探索 物种 各 类 性 状 的 自动 识别 方法 。Taylort 在 分 析 文 本 语法 特征 的 
基础 上 ， 以 人 工 方式 建立 规则 和 词典 ,实现 了 物种 部 位 、 特征 及 状态 等 描述 信息 的 
识别 。Tangt2 等 在 相关 研究 基础 上 ， 通 过 预定 义 模 板 的 方式 ， 有 监督 地 学 习 生 成 
日 关 的 规则 ， 实 现 了 对 物种 叶子 的 形状 、 大 小 、 颜 色 、 排 列 及 果实 的 形状 特征 的 
YAH, Hong Cui03 等 人 开发 的 CharaParser 采用 启发 式 方法 和 句法 特征 生成 规则 ， 
较 好 地 实现 了 对 物种 多 类 性 状 的 识别 。 段 宇 锋 等 人 u4 持 续 探 索 着 中 文 植物 物种 多 
样 性 描述 文本 中 形态 信息 的 抽取 。 


2.3 生物 网 络 识别 " 


各 种 生物 实体 (物种 、 分 子 、 基 因 、 蛋 白 等 ) 之 间 存 在 着 多 种 关系 ， 这 些 关 
系 可 以 用 网 络 图 的 方式 表达 出 来 , 进而 通过 对 图 的 分 析 实 现 对 生物 系统 的 分 析 0na。 
蛋白 质 和 基因 是 生物 医药 领域 普遍 关注 的 重点 内 容 , 关于 这 类 知识 的 识别 研究 并 
不 限 在 生物 多 样 性 领域 开展 。 当 前 生物 多 样 性 相关 的 文献 中 , 研究 人 员 可 通过 对 
物种 基因 测序 的 方式 来 鉴定 物种 的 亲缘 性 , 也 可 通过 采用 蛋白 质 或 基因 技术 影响 
或 改变 生物 的 内 外 环境 或 特征 ， 从 而 研究 相关 问题 。 因 此 ,对 蛋白 质 和 基因 的 识 
别 更 多 地 不 仅仅 是 识别 出 蛋白 质 、 基 因 等 命名 实体 单元 , 而 是 识别 出 各 类 生物 实 
体 之 间 通 过 动词 〈 或 动词 短语 ) 、 介 词 〈 或 介词 短语 ) 、 所 有 格 等 关联 而 成 的 生 
物 网 络 关 系 。 在 此 基础 上 可 进一步 开展 资源 的 重组 织 、 语 义 检索 、 计 算 分 析 等 工 
作 。 
3 语义 知识 框架 设计 

上 文 对 当前 生物 多 样 性 抽取 领域 当前 重点 关注 的 抽取 内 容 及 其 相关 的 资源 
工具 进行 了 分 析 。 结 合 中 国 科 学 院 文献 情报 中 心 “建设 生物 多 样 性 领域 本 体 构建 
与 语义 组 织 应 用 示范 平台 ”的 实际 要 求 ， 从 实际 应 用 的 角度 出 发 ， 在 人 工 标 引 了 
100 篇 生物 多 样 性 领域 的 科技 文献 后 ， 笔 者 以 物种 为 核心 ， 综 合 分 析 了 当前 生物 
多 样 性 领域 研究 中 可 能 涉及 的 与 物种 研究 相关 的 知识 单元 类 型 , 各 知识 单元 类 型 
之 间 的 关联 关系 , 设计 了 如 图 1 所 示 的 生物 多 样 性 语义 知识 框架 , 该 语义 知识 杠 
架 是 进一步 支持 笔者 开展 知识 抽取 、 知 识 组 织 的 基础 。 

从 图 中 可 以 直接 看 出 , 笔者 的 知识 框架 中 包含 了 两 个 方面 的 语义 知识 : 语义 
知识 单元 、 语 义 知 识 单元 之 间 的 语义 关联 。 
3.1 语义 知识 框架 中 的 知识 单元 


这 里 的 知识 单元 即 图 1 每 个 文本 框 中 列 出 的 语义 类 型 , 在 实际 的 科技 文献 中 ， 
这 些 知 识 单元 往往 以 命名 实体 名 称 或 短语 的 形式 表达 出 来 , 将 科技 文献 中 提 及 的 
命名 实体 名 称 或 短语 以 图 1 中 定义 的 语义 类 型 进行 标注 , 即 可 实现 该 语义 单元 的 
识别 。 图 1 中 所 有 的 知识 单元 语义 类 型 均 以 图 中 心 的 物种 为 核心 , ESS I ate 
了 物种 的 各 个 方面 ， 包 括 名 称 、 分 布 、 特 征 、 生 长 发 育 阶段 、 影 响 因素 等 ， 部 分 
大 的 分 面 上 还 有 其 进一步 细 分 的 下 级 类 ， 部 分 分 面 会 共有 一 些 语义 单元 。 


oF 


e 物种 名 称 。 包 括 各 种 物种 名 称 、 变 种 名 称 、 品 种 名 称 、 变 型 名 称 、 物 种 
的 各 种 俗名 。 
e 物种 特征 。 包 括 各 类 物种 的 器 官 、 细 胞 、 基 因 等 。 
e 物种 分 布 。 这 里 的 物种 分 布 包括 地 理 区 域 上 的 分 布 ， 同 时 还 包括 不 同 生 
态 环境 下 的 分 布 ， 因 此 ， 该 方面 的 知识 单元 除了 洲 、 国 、 地 区 、 城 市 、 
县 等 地 理 名 称 外 ， 还 包含 生物 群落 、 地 貌 、 物 理 环 境 (高 度 、 温 度 、 湿 
ES). 
e 物种 生物 发 育 阶段 。 包 括 物种 的 发 育 阶段 、 物 种 各 器 官 的 发 育 阶段 。 
e ”对 物种 产生 影响 的 因素 。 能 对 物种 产生 影响 的 包括 非 生物 因素 和 生物 因 
素 两 类 ， 其 中 ， 非 生物 因素 包括 温度 、 湿 度 、 海 拔高 度 、 土 壤 等 ， 生 物 
因素 则 包括 各 种 细胞 、 染 色 体 、 蛋 白质 、DNA、 基 因 片 段 、 化 学 元 素 、 
化 合 物 等 。 
e ”对 物种 分 类 的 各 种 标准 和 生态 位 模型 工具 。 
e 对 物种 实验 的 各 种 分 析 方 法 及 设备 仪器 。 
e 其它 基本 信息 。 包 括 人 、 机 构 及 目前 无 法 确定 明确 语义 的 名 词 短 语 。 
这 些 知 识 单元 基本 上 涵盖 了 当前 生物 多 样 性 ， 尤 其 是 物种 多 样 性 研究 中 的 主 
体 知识 单元 ， 它 们 构成 了 相关 研究 的 主要 知识 点 。 


3.2 语义 知识 框架 中 的 语义 关联 


上 文中 分 析 的 这 些 知 识 单元 并 不 是 以 独立 的 形式 存在 于 科技 文献 中 ， 他 们 彼 
此 之 间 往 往 还 存在 着 各 种 语义 关联 , 结合 这 些 语义 关联 才能 够 最 大 化 地 利用 这 些 
知识 单元 实现 深层 的 文本 内 容 挖掘 。 在 本文 定义 的 语义 知识 单元 中 , 笔者 根据 实 
际 应 用 及 后 续 能 够 识别 出 来 的 现实 情况 , 定义 了 有 限 的 几 种 语义 关联 , 这 些 语义 
关联 可 以 作为 事实 三 元 组 支持 进一步 的 文本 分 析 。 例 如 : 

< 生物 因素 / 非 生物 因素 > 在 < 物理 环境 > 下 
< 生物 因素 / 非 生物 因素 > 作用 于 < 物种 /器 官 /细胞 > 
< 生物 因素 / 非 生 物 因 素 > 作 用 于 < 生物 阶段 > 
< 分 析 方 法 /仪器 设备 > 作用 于 < 物种 /器 官 /细胞 > 
< 物种 /器 官 /细胞 > 呈现 的 < 生物 特征 > 
< 物种 /器 官 /细胞 > 的 < 生物 阶段 > 
< 物种 > 分 布 于 < 分 布 区 域 > 
< 分 布 区 域 > 的 < 地 貌 、 植 被 、 土 壤 等 特征 > 


3.3 其 它 


除了 上 述 在 知识 框架 图 中 明显 展示 出 来 的 两 个 方面 的 语义 知识 外 ， 笔 者 注意 
到 , 在 实际 的 科技 文献 中 还 存在 不 少 有 分 析 价 值 的 语义 标注 。 根据 人 工 标 引 的 科 
技 文献 , 笔者 发 现 ， 有 不 少 知识 无 法 简单 地 以 茶 个 知识 单元 或 某 个 知识 单元 间 关 
联 关系 的 形式 展示 出 来 ， 比 如 一 个 完整 的 实验 条 件 (如 化 学 元 素 的 浓度 与 温度 控 
制 综合 作用 的 实验 条 件 ) 、 一 个 完整 的 实验 过 程 等 ， 这 些 知 识 可 能 包含 了 多 个 知 
识 单 元 和 知识 单元 间 的 关联 关系 。 针 对 这 些 内 容 , 笔者 可 以 采用 知识 句 群 的 方式 
进行 表达 ， 即 将 关联 密切 的 多 个 短语 或 短 句 组 织 在 一 起 ， 以 保证 知识 的 完整 性 。 
依据 他 们 的 内 容 ， 可 以 简单 将 这 类 知识 划分 为 : 方法 、 过 程 、 结 果 几 类 。 这 些 内 
容 与 上 述 的 两 类 语义 知识 共同 构成 了 生物 多 样 性 语义 知识 框架 。 针 对 这 一 部 分 知 


识 的 识别 方法 将 在 后 续 的 研究 中 进一步 前 述 , 下 文 将 围绕 前 两 类 知识 的 识别 展开 
实验 探索 。 


Y ÉK 
p- ee -一 
ja 


pS 呈现 


RAB RADE 
SpeciesBioStage 


变种 
variant 

| 
— pe ‘RUN 


T BioticFactor 
ou 


eam 
Local name 


Ae 


AbioticFactor 
WEIR 
CheniistryElement 


ET 
Ne 
humidity 


wht 
Soil 


图 1 生物 多 样 性 语义 知识 框架 
4 语义 知识 抽取 的 实现 


基于 上 文 定义 的 生物 多 样 性 语义 知识 框架 ,笔者 尝试 利用 词典 、 规 则 、 句 法 
分 析 等 综合 方法 ,从 检索 获取 的 生物 多 样 性 相关 的 科技 文献 摘要 中 , 识别 出 知识 
框架 中 定义 的 知识 单元 和 知识 单元 间 的 关联 关系 。 


4. 1 实验 数据 及 语 料 的 选择 


为 了 探索 生物 多 样 性 领域 的 知识 抽取 ， 笔 者 从 pubmed 数据 库 的 Plant 
Physiology. The Plant Cell 两 个 期 刊 上 获取 了 23000 篇 左右 的 期 刊 文摘 ， 并 根据 
中 国 科 学 院 植 物 研 究 所 提供 的 20 种 核心 期 刊 列 表 ， 从 WOS 获取 了 27049 条 科 


Modelo! 


技 文 摘 数据 。 本 研究 将 设计 相应 的 方法 来 识别 出 这 些 摘 要 中 提 及 的 语义 知识 。 为 
了 提升 本 研究 识别 的 效率 , 笔者 通过 专家 咨询 及 参考 中 科 院 植物 研究 所 的 相关 研 
究 1， 收 集 整 理 了 可 作为 信息 抽取 词 表 的 相关 语 料 ， 主 要 包括 : 植物 所 提供 的 
G2000 植物 本 体 数据 库 、NCBI 物种 库 、UMLS 中 的 相关 领域 术语 和 词汇 、 地 址 
AV. Chemical Entities of Biological Interest 中 的 小 化 合 物 名 称 等 ， 这 些 领 
域 资 源 将 作为 实体 名 称 识别 的 重要 文 撑 。 


4.2 知识 抽取 框架 的 设计 


为 了 更 好 地 实现 知识 单元 及 知识 单元 间 关 系 的 识别 ， 笔 者 设计 了 图 2 所 示 的 
知识 抽取 框架 ， 具体 步 又 描述 如 下 : 


FOF 存储 


实体 抽取 > 关系 抽取 


oe v Rue ¢ ES | | 
>eE cT ED 


CA CAS 物种 本 体 用 户 词典 | | 


图 2 i 得 义 知识 抽取 框架 


C1) 输入 数据 源 

主要 包括 待 抽取 的 科技 文献 及 相关 领域 资源 〈 植 物 多 样 性 本 体 、NCBI 物种 
库 等 ) 。 

(2) 抽取 工具 及 方法 


通过 采用 不 同 的 自然 处 理工 具 〈 包 括 Stanford he _Berkerly Parser 4$) , 
实现 对 文本 的 词性 标注 、 句 法 依存 关系 分 析 及 句子 的 语法 语义 分 析 。 通 过 结合 不 
同 的 抽取 规则 和 上 距离 度量 算法 ， 实 现 句 子 中 的 实体 E 的 识别 。 


(3) 实体 抽取 与 关系 抽取 


实体 抽取 与 关系 抽取 之 间 是 一 个 交叉 欠 代 实现 的 过 程 ,一 方面 , 实体 抽取 过 
程 的 本 吴 是 一 个 迭代 过 程 ， 新 识别 的 命名 实体 添加 到 用 户 词 典 中 , 用 于 下 一 轮 的 
实体 识别 过 程 ; 另 一 方面 ， 关 系 抽 取 的 结果 也 可 以 用 于 发 现 新 的 实体 ， 新 发 现 的 
实体 用 于 下 一 轮 的 关系 发 现 过 程 。 


(4) 信息 抽取 结果 存储 


根据 信息 抽取 结果 类 型 的 不 同 ， 采 用 RDF 存储 和 数据 库存 储 两 种 方式 实现 
实体 及 关系 的 存储 。 


4. 3 知识 抽取 的 流程 


C1) 知识 单元 的 标注 与 抽取 


命名 实体 的 识别 主要 方法 包括 基于 词典 和 规则 的 方法 , 以 及 基于 统计 的 方法 
等 。 在 这 里 ,笔者 采用 的 命名 实体 识别 方法 以 词典 为 基础 ,采用 基于 规则 和 统计 
方法 相 结 合 ， 实 现 新 实体 发 现 识 别 。 

CD 基于 领域 词典 的 实体 标注 。 对 领域 资源 进行 分 析 提 取 ， 形 成 可 用 于 命名 
实体 抽取 的 领域 词典 , 实现 对 科技 文献 中 所 涉及 的 实体 标注 在 具体 实现 过 程 中 ， 
严格 按照 词典 进行 标注 ， 获 取 实 体 在 句子 中 的 相关 信息 ， 如 图 3 所 示 ， 彩 色 部 分 
为 标注 结果 。 

(2) 基于 词典 相似 性 的 新 实体 识别 。 基 于 词典 的 命名 实体 识别 无 法 解决 未 登 
录 词 的 问题 , 通过 识别 文本 中 含有 的 命名 实体 ,并 计算 其 与 词典 中 命名 实体 之 间 
的 距离 ， 实 现 对 一 些 未 登录 词 的 识别 。 对 于 上 例 中 ，Solanum section Petota 作为 
一 个 整体 出 现 表 示 一 个 命名 实体 ， 而 基于 词典 的 方法 则 只 识别 了 Solanum， 则 可 
以 通过 相似 性 扩展 ， 实 现 规范 的 实体 识别 ， 从 而 实现 实体 sect. Petota 的 识别 。 
Species boundaries were assessed by phenetic analyses of morphological data for all 
species of wild potatoes (Solanum section Petota) assigned to ser. Longipedicellata: S. 
fendleri, S. hjertingii, S. matehualae, , S. polytrichon, and S. stoloniferum. 
These six tetraploid species grow in the southeastern United States (S. fendleri) and 
Mexico (all six species). We also analyzed morphologically similar species in ser. 
Demissa (S. demissum) and ser. Tuberosa ( , S. gourlayi, S, verrucosum). 


We chose S. verrucosum and S. demissum as Mexican representatives, and 

and S. gourlayi as South American representatives of other series that are difficult to 
distinguish from ser. Longipedicellata. We also analyzed morphologically more 
dissimilar species in ser. Tuberosa (S. berthaultii) and ser. Yungasensia (S. 
chacoense). The results support only three species in ser. Longipedicellata: (1) 5. 
polytrichon, (2) S. hjertingii + S. matehualae, (3) S. fendleri + +5. 
stoloniferum. Solanum sii, S. gourlayi, and to a lesser extent S. demissum and S. 
verrucosum are very similar to members of ser. Longipedicellata and are difficult to 
distinguish practically from them, despite differences in chromosome numbers and 
crossability relationships. These data help document and explain the extensive 


taxonomic difficulty in sect. Petota, highlight conflicts between biological and 


morphological species concepts, and add to a growing body of evidence that too many 
wild potato species are recognized. (1192769)# 
图 3 基于 领域 词典 的 实体 标注 样 
(3) 基于 语法 关系 的 新 实体 识别 。 文 本 中 出 现 的 有 些 实体 通过 上 述 两 种 方法 
仍然 无 法 辨识 ， 例 如 ser. Longipedicellata, ser. Tuberosa, ser. Yungasensia , S. 
matehualae。 对 于 这 些 词 的 识别 ， 通 过 分 析 句 子 的 句法 依存 关系 及 语法 关系 〈 并 
列 的 句子 成 分 ) ， 结 合 统计 分 析 算 法 ， 可 以 实现 命名 实体 的 识别 。 
O 实现 文献 中 术语 的 标识 。 除 了 文本 中 包含 的 命名 实体 , 领域 的 术语 上 共有 
提示 文献 内 容 的 重要 作用 , 因此 术语 的 识别 有 助 于 为 用 户 提 供 文 献 内 容 的 直接 简 
洁 的 认 知 。 通 过 词法 分 析 方 法 (名 词 词组 等 ) 对 文献 中 出 现 的 重要 术语 进行 标注 ， 


如 : Species boundaries, phenetic analyses, morphological data, tetraploid species 等 。 


(5) 地 理 位 置 的 识别 。 对 于 此 类 可 穷尽 的 地 理 位 置信 息 ， 通 过 地 理 词典 实现 
包括 城市 、 国 家 等 信息 的 识别 ， 例 如 : Mexican , South American , United States. 

(e) 数字 信息 的 识别 。 主 要 是 识别 文本 中 含有 的 数值 相关 信息 ， 如 年 份 、 日 
期 、 实 验 数 据 ， 以 及 相关 的 描述 数值 等 ， 此 类 信息 主要 可 借助 构词法 规则 、 特 殊 
数值 词典 等 实现 ,如 对 图 1 中 的 文本 ,可 以 识别 出 six tetraploid species, three species. 
而 对 于 文本 “The inhibition constant values were 0.46 (using acetolactate as Substrate) 
and 0.19 [mu]M (acetohydroxybutyrate), respectively. ” 则 可 以 识别 其 中 所 包含 的 
0.46 和 0.19 [mu]M. 


C) 实体 属性 标注 。 除 了 标注 命名 实体 以 外 ， 对 于 识别 出 的 命名 实体 的 描述 


信息 进行 标注 ， 可 以 更 加 全 面 的 提示 命名 实体 所 包含 的 信息 。 通 过 分 析 命 名 实体 


出 现 的 上 下 位 语 境 信息 (特定 语法 规则 、 句 法 依存 规则 等 ) ， 可 实现 实体 属性 的 
标注 。 例 如 文献 中 含有 词组 wild potatoes， 命 名 实体 识别 可 识别 出 potatoes， 通 过 


NP 名 词组 块 的 句法 依存 关系 ， 可 将 wild 标注 为 该 实体 的 属性 ， 从 而 为 用 户 提供 


更 为 精确 的 信息 
(20 关系 的 抽取 


(D 多 层级 的 共 现 关系 。 在 不 同位 置 的 共 现 关系 可 以 用 于 计算 实体 之 间 的 关 
联 关 系 。 本 研究 中 重点 考虑 了 命名 实体 在 标题 、 摘 要 及 句子 级 的 共 现 关 系 ， 通 过 
分 析 标 注 出 的 命名 实体 出 现 的 位 置 ， 可 以 获取 实体 之 间 的 共 现 关系 。 


Auto 


句子 级 共 现 : 


< S. fendleri, S. hjertingii >, < S. hjertingii , S. matehualae >,< S. verrucosum , S. 
demissum >,< Solanum avilesii, S. stoloniferum >,< S. fendleri , S. papita >... 


摘要 级 共 现 : 


< potatoes, S. berthaultii >, < S. stoloniferum , S. fendleri >,< S. fendleri , S. 
verrucosum >,< S. gourlayi , S. avilesii >,< S. demissum , S. fendleri >... 
(2) 实体 的 同位 语法 关系 抽取 。 针 对 如 上 例子 ， 得 到 如 下 结果 : 
同位 语 关 系 : <S. verrucosum, S.avilesii >, < S. gourlayi, S. avilesii >, < S. 
fendleri, S. matehualae >, «Solanum section Petota , wild potatoes > 等 。 
O 实体 的 并 列 语法 关系 抽取 。 针 对 如 上 例子 ， 得 到 如 下 结果 : 
并 列 关 系 : «S. matehualae , S. stoloniferum >,<S. polytrichon , S. hjertingii >,<S. 
fendleri , S. stoloniferum >,<S. hjertingii , S. papita >,<lesser extent S. demissum , S. 
verrucosum >,<S. hjertingii , S. stoloniferum > 等 。 


(4) 事实 关系 识别 。 在 标题 、 摘 要 中 存在 的 <S, P,O> 〈 主 语 ， 谓 词 ， 宾 语 ) 


事实 , 可 为 后 续 的 关系 推理 提供 重要 的 支持 , 这 一 类 的 事实 包括 通用 型 事实 与 植 


物 本 体 中 定义 的 事实 关系 ,借助 于 句法 依存 关系 分 析 、 本 体 映射 ,对 上 例 (1192769) 
文本 进行 抽取 ， 可 以 得 到 如 下 结果 : 


<"We","also analyzed morphologically","similar species" 

<"These data","explain the extensive taxonomic difficulty in" — ,"sect. 
Petota "> 

<"South American representatives of other series","are difficult to 
distinguish from"," Longipedicellata "> 

<"These six tetraploid species","grow in","the southeastern United 
States ( S. fendleri ) and Mexico"> 

«"We","also analyzed morphologically","more dissimilar species" > 


"nw "n 


€ <"Species boundaries" ,"were assessed by","phenetic analyses of 
morphological data" > 
€ <"a lesser extent S. demissum and S. verrucosum","are very similar 
to","members of ser. Longipedicellata "> 
€  -"The results","support only","three species" 
(5) 语义 上 下 位 关系 的 发 现 。 通 过 采用 基于 规则 的 方法 ， 可 以 发 现 术 语 之 间 
的 语义 上 下 位 关系 ， 如 下 例 所 示 : 
€ “CSS grass margins could be improved as butterfly habitats if they are linked 
to existing habitats such as hedgerows, are sown with a better range of native 
grasses and herbs and are managed in a way more conducive to 
wildlife.( 1196577)” 
可 以 标识 出 hedgerows 是 于 hedgerows 的 下 位 术语 ， 即 <hedgerows， 
hypogyny , habitats > 
€ “We investigated all sections of genus Cochlearia recognised in the most 
common concepts, as well as some genera such as Ionopsidium, Bivonaea, 
Pastorea and Thlaspis.( 1205921)" 
可 以 标识 出 Ionopsidium, Bivonaea, Pastorea 和 Thlaspis 是 genera 的 下 位 术语 ， 
即 <Ionopsidium, hypogyny , genera», < Bivonaea, hypogyny , genera >, < Pastorea, 
hypogyny , genera >, <Thlaspis, hypogyny , genera>. 
物种 性 状 关系 识别 。 例 如 : wild potatoes， 可 以 标注 出 potatoes 具有 属性 wild, 


即 <potatoes,have property , wild? 。 


4.4 知识 抽取 的 结果 应 用 


以 领域 词典 和 人 工 为 主 撰写 的 规则 库 为 重要 的 知识 库 支撑 的 知识 抽取 方法 虽 
然 在 领域 快速 迁移 与 新 物种 或 新 知识 单元 识别 的 灵活 性 方面 有 所 欠缺 , 但 是 其 准 
性 可 以 得 到 有 效 的 保障 ， 从 而 进一步 支撑 实际 的 知识 检索 应 用 。 利 用 上 述 定 》 
的 知识 抽取 框架 和 抽取 方法 , 笔者 共计 从 6 万 多 篇 相关 的 文献 标题 和 摘要 中 获得 
了 273,668 条 知识 单元 的 抽取 结果 ， 各 抽取 类 型 的 分 布 结果 如 下 。 


zu 


基于 上 述 知 识 抽 取 的 结果 , 综合 利用 领域 知识 库 和 其 它 第 三 方 资源 , 笔者 进一步 
构建 了 生物 多 样 性 领域 语义 检索 的 应 用 示范 平台 , 为 用 户 提供 领域 知识 揭示 、 语 
义 标 注 、 本 体 导 航 等 检索 应 用 。 

对 文献 标题 和 摘要 进行 标注 ， 从 64,475 篇 文献 中 获得 273,668 标注 条 结果 


实体 类 型 数量 实体 类 型 ”| 数量 
genus 115698 

family 25332 

habit 13510 

plantFlowerColor 12649 

cultivatedHabitat 12277 

plantStemType 10306 

species 9478 

longevity 8233 

plantFruitType 6489 


plantGynoeciumCarpelFusio 


4875 
n 
planAndroeciumStamenArra 4793 
ngement 
plantLeafArrangement 3908 
plantLeafShape 3609 
plantLeafMargin 3268 
plantInflorescenceForm 3268 
plantLeafSurface 2859 
plantNumbersOfFloralStructu 2815 
re 
plantLeafDivision 2615 
lossOfLeaves 2482 
photosynthesis 2282 
plantFlowerSexuality 2222 
acc A 2152 
plantStemForm 1983 
province 1845 
plantFlowerTime 1773 
plantRootType 1725 
plantInflorescenceType 1637 
plantPollinationSystem 1509 
gene 1270 
plantFlowerPerianthType 1227 
order 1088 
plantFlowerSymmetry 1043 
plantLeafApex 780 
plantAndroeciumAntherAttac 

736 
hment 
plantGynoeciumOvaryPositio 722 
n 
plantAndroeciumStamenFusi 77 
on 
plantFlowerPerianthForm 621 
plantLeafStructure 510 
plantLeafAttachment 323 
culturedHabitat 264 
phylum 252 
plantLeaf 244 
class 153 
plantRootStructure 127 
plantRootForm FE 


plantLeafDivision|plantLeafS 
hape 


plantInsertionOfFloraStructur 
e 


plantGynoeciumStyleForm 


plantGynoeciumCarpelNumb 
er 


plantLeafVenation 


plantStemStructure 


plantGynoeciumCarpelType 


aquaticHabitat 


plantFruitStructure 


plantAndroeciumStamenNum 
ber 


plantGynoeciumPlacentation 


plantFlowerStructure 


plantGynoeciumOvuleType 


plantInflorescenceStructure 


plantGynoeciumStructure 


plantFlowerPerianthStructure 


— 


extremeHabitat 


— 


plantFruitColor 


— 


实体 类 型 和 数量 如 下 : 


图 4- 图 7 展示 了 相关 的 抽取 结果 和 对 生物 多 样 性 领域 语义 检索 的 支撑 结果 。 


identifier nerName nerldentifier 
leifi&cc6526b1af886d58baSdiBcieb3-711 ^ Miciaceae [100466] 
1c1f423b28d8bd4c94/49322393205eb3-711 ^ Pinus [119655] 
1c1f7cd13077ed8b27a698cf9e64121b3-711 CAM [100776] 


1 
2 

3 

4 1c1f765(5562d2175546059367abbd3-711 fruit 
5 lcif893d0da4aa38e58d648d124020e43-711 — air [28859] 
6 1c1fb09e509787ad85d6e21%1a3cd0a3-711 tree [100272] 
7 
8 
3 


Ielic577eeb 3fd38d Taf 4c8b8fe5c 763-711 flower 


1c1fd00a8b102a9fac2be043727056553-711 polyacrylamide gel electrophoresis — [18137] 
1c1fd5643e82df384d66bib86a5b8f193.711 ^ gynodicecious [120606] 
10 — 1cH08ca5c5e40c48410422cfc2b2c03711 water [28245] 
11 — 1c20c402af3a996396bd6767503977323.711 Calathea [113630] 
12 1c2293d5ebf1f23fag9eed9033eelefb3-711 biota [118360] 
13 — ic22dbcd77efeG7c4bSc94a169b922b371 — tree [100272] 
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15 1c22c501be7317101ba6b275d07ac613.711 rice species ncbi 
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21  1c23d9210e452e34580209c2/5d31cb83711 Arabidopsis thaliana species ncbi 
22 ic243bXd2d6bÜG95dÜfe975a21593c3711 parenchyma [78436] 
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1 8baei5224578.. French oceanographic research centre — 3030235e683dead.. IFREMER fa381f7a9f6614e8cc 。 semantic_relation appostion_selation... 1196111 Abstract_En 2014-05-20 17:10:25.35 
2 8bb251634769.. SH ec57040d56945d1.. — Shimodaire-Hasegawa 342883eflcb34cccO.. semantic relation  sppostion relation .. — 1193127 Abstract_En 2014-05-20 17:10:33.18 
3  Bbb47cb7bdce.. subtropical woody dwarf bamboo fbcc164889a6a06f Nakai 02497673db92238c.. semantic relation appostion_relation_.. 1203822 Absraci En 2014-05-20 17:07:30.96 
4 Sbb68F170éfad... Siema Madre Occidental 5c41d49097eeaQd... Oriental Socorusco Siema Madre ee153c4e8e7e2s8c semantic relation apposition relation .. — 1178780 Abstract_En 2014-05-20 16:40:23.82 
5 Bobb593de701.. Pintegrifola L. 072/654cc737aaBc.. P. balbisi Lehm. ma3949698bc62dc4..  semarüc relation  appostion relation .. — 1179007 Abstract_En 2014-05-20 17122701 
6 — Bbclfe2üdca05.. Onobrychis Bfc9146e40ab39a1..  Ahagi Tavemiera df40b1e1a63707e6e 。  semarüc relation  appostion relation .. 1207684 Abstract_En 2014-05-20 17:13:01.46 
7 Bbc3b5eldai2.. infomation bb3ccd5881d6514.. ^ species cd3d205946198768.. semantic relation apposition relation .. — 1196134 Abstract_En 2014-05-20 17:01:29.97 
8 gbc515af0398d.. ndhF GbO2b9d3db40885.. ^ DNA sequence data bbb42b&S0csf32ic.. semantic relation  appostion relation .. 1207965 Absraci En 2014-05-20 17:06:18.14 
9  Sbo5eace07a0.. ndhF Go026943db40885.. — matK 4745ad295a52c4b3. semantic relation  apposiion relation .. 1200919 Abstract_En 2014-05-20 17:1254.02 
10 — 85c722202785.. leaf area d48433741e3ba73.. leaves 7S7d2ef17285d43e.. semantic relation  apposiion relation .. 1201783 Abstract_En 2014-05-20 16:37:08.26 
11 BSbcSfe23ee2ec.. Plantaginaceae S62b8dbb4ef4738.. ^ Pseudolysimachion alaU2052eb5cc&Se.. semantic relation  appostion relation .. 1178313 Abstract_En 2014-05-20 17:07:27.66 
12 Sbcd9559504c.. seed bank germination T23eeídSeS70d03.. seed dispersal c6de66f094a23dd27.. semantic relation appostion_relation_.. 1200247 Absraci En 2014-05-20 16:48:32 28 
13 Sbd054467tad... Neogrolleoideae ee2cccf85871289... relationships eaa7c88f5c1246724.. semanic relation apposition relation .. — 1206711 Absraci En 2014-05-20 17:13:41.76 
14 gbd073b1f9seb.. PS-1 ebab54a04498e91.. Soybean _partialfemale-sterile_mutant 1  GdB3l1de45155701.. semantic relation appostion_relation_.. — 1181122 Abstract_En 2014-05-20 17:13:05.92 
15 8bd162c3b06c... standing leaf_numbers 736f1522edc4590  signficant sun leaf thickness ecbcb3b5229b3c37.. semantic relation apposition _relation_.. 1189919 Abstract_En 2014-05-20 16:38:20.41 
16 — Sbd561bab288... var b2145aac704ce76.... varieties laldácbüfacád95fe.. semantic relaion apposition relation .. 1205370 Absraci En 2014-05-20 16:3747.86 
17 SdibdSHBic.. ITS fodb76644228e946... spacer dddd37dfc736F0674... semantic relation appostion_relation_.. 1194070 Abstract_En 2014-05-20 17:13:41.89 
18 — Sbdcddid7b14.. database management options 86e4019938c8cc2 — monitoring approaches 285275789cbcb72a.. semantic relation  appostion relation .. 1197641 Absraci En 2014-05-20 17:13:39.48 
19 — Sbdíc3délc5ac.. Desmos saccopetaloides aea257455d495(.. China ae54a5c026f31ada0.， semantic relation apposition relation .. — 1187069 Absraci En 2014-05-20 16:34:38.94 
20  SbeÜ3debdSb5.. complete deletion Sd27a4d4ddb4900.. phs1-FISH pattems S91fb99dbcc47087.. semantic relation appostion_relation_... 1206166 Abstract_En | 20140520 17:11:0371 


5 生物 多 样 性 领域 语义 关系 抽取 结果 示例 
从 30,665 篇 文献 中 获得 133,922 条 语法 关系 结果 ， 类 型 均 为 SPO 语法 关系 。 
从 15,259 篇 文献 中 获得 35,903 条 语义 关系 结果 ， 均 为 apposition_relation 同位 语 
关系 。 


5 New triterpene saponins from the root of Ilex pubescens 

Fitoterapia, Volume 81, Issue 7, October 2010, Pages 788-792 

Cui-Xian Zhang, Chao-Zhan Lin, Tian-Qin Xiong, Chen-Chen Zhu, Jin-Yan Yang, Zhong-Xiang Zhao 
Abstract 


Two new [ntermene glycosides named ilexpublesnin A (1) and ilexpublesnin B (2) were isolated from the root of 
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6 基于 本 体 概念 或 实体 的 知识 浏览 、 检 索 与 统计 分 析 功 能 
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7 基于 语义 知识 抽取 的 单 篇 文章 共 现 关 系 知 识 图 


4 结语 


本 文 在 对 当前 生物 多 样 性 信息 抽取 领域 相关 研究 分 析 的 基础 上 , 结合 中 国 科 
学 院 文献 情报 中 心 “建设 生物 多 样 性 领域 本 体 构建 与 语义 组 织 应 用 示范 平台 ”的 
实际 要 求 , 设计 了 生物 多 样 性 语义 知识 抽取 框架 , 并 利用 十 二 五 科技 支撑 计划 “ 面 
向 外 文科 技 文献 信息 的 知识 组 织 体系 建设 与 应 用 示范 (STKOS) ”构建 的 植物 多 样 
性 本 体 作为 底层 的 词典 , 探索 实现 了 相应 的 语义 知识 抽取 方法 , 开发 了 相应 的 生 
物 多 样 性 示范 平台 。 本 研究 更 多 从 实际 应 用 的 层面 探索 了 可 工程 化 应 用 的 知识 组 


织 框架 及 知识 识别 的 方法 , 因此 , 词典 和 人 工 撰写 的 规则 是 本 研究 中 开展 知识 抽 
取 的 重要 组 成 部 分 , 正 因为 此 , 词典 和 人 工 规 则 本 身 所 固有 的 局 限 性 也 在 一 定 程 


度 上 限 


制 了 识别 的 完整 性 和 准 


细 化 识别 仍 将 是 重要 内 容 。 
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